Giới thiệu về lập trình Triton: Mô hình thực thi song song: Suy nghĩ theo khối

Chuyển đổi từ lập trình CPU tuần tự sang lập trình GPU đòi hỏi một sự thay đổi tư duy: từ lặp từng phần tử sang thực thi theo khối. Chúng ta không còn xem dữ liệu như một luồng các giá trị vô hướng, mà là tập hợp các "khối" được lập kế hoạch để tận dụng băng thông phần cứng.

1. Bị giới hạn bởi bộ nhớ so với bị giới hạn bởi tính toán

Ngưỡng giới hạn của một kernel được xác định bởi tỷ lệ giữa các phép toán số học và truy cập bộ nhớ. Phép cộng vector thường bị giới hạn bởi bộ nhớ vì nó chỉ thực hiện một phép cộng cho mỗi ba thao tác truy cập bộ nhớ (2 lần tải, 1 lần lưu). Phần cứng dành nhiều thời gian chờ đợi DRAM hơn là thực hiện tính toán.

2. Vai trò của BLOCK_SIZE

BLOCK_SIZE xác định mức độ chi tiết của tính song song. Nếu quá nhỏ, chúng ta sẽ không tận dụng hết các kênh thực thi rộng rãi của GPU. Kích thước tối ưu đảm bảo đủ "công việc đang thực hiện" để bão hòa băng thông bộ nhớ.

3. Giấu độ trễ thông qua mức độ chiếm dụng

Mức độ chiếm dụng là số lượng khối hoạt động trên GPU. Mặc dù không phải là mục tiêu cuối cùng, nhưng nó giúp bộ lập lịch chuyển sang một khối mới để thực hiện tính toán trong khi một khối khác đang chờ lấy dữ liệu từ VRAM với độ trễ cao.

4. Tận dụng phần cứng

Để tối đa hóa hiệu suất, chúng ta phải điều chỉnh BLOCK_SIZE theo các quy tắc ghép nối bộ nhớ của kiến trúc GPU, đảm bảo rằng các luồng liên tiếp truy cập vào các địa chỉ bộ nhớ liền kề nhau.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

For a kernel that adds two vectors ($out = x + y$), what is the most likely bottleneck on modern GPUs?

Arithmetic Throughput

Memory Bandwidth

Shared Memory Latency

QUESTION 2

What is the primary purpose of 'Occupancy' in the GPU execution model?

To ensure every thread runs as fast as possible.

To hide memory latency by keeping work in flight.

To increase the clock speed of the compute units.

To reduce the power consumption of the HBM.

QUESTION 3

Which of the following describes 'Memory-Bound' behavior?

The GPU is waiting for the memory bus to deliver data.

The GPU has exhausted its available VRAM.

The kernel is performing too many complex floating-point operations.

The CPU cannot launch kernels fast enough.

QUESTION 4

What happens if the BLOCK_SIZE is set too small?

The kernel will fail with a memory error.

The GPU fails to utilize its wide SIMD execution lanes.

The memory bandwidth increases significantly.

QUESTION 5

In the logistics warehouse analogy, what represents the 'Blocks'?

The individual items.

The workers.

The organized pallets.

The delivery trucks.